工程師有三種: 一種是會出嘴巴的, 一種是會設定找問題的, 一種是會寫程式開發的, 雖然說這三種工程師都有其自己定位, 但身為一個 Data Engineer 在其描述不是電腦專才, 而是 Hacking Skill, 這指的是實作的能力, 因此若不會寫程式的話, 以這個 Hacking Skill 觀點是不夠的.
當然這會寫程式是不單純的, 其中還包含很多面項, 例如:
等等等等都是一個好的 Developer (Programmer) 須要的條件.
除外, 語言的種類倒是在其次, 無論是用 PHP, Python, Java, R, ..... 都是可以的, 一種語言不可能有全面且壓倒性的適用度強過其他種, 而選擇一個語言要看的點有:
等等等等都是選擇開發使用語言的考慮因素.
這邊會拿出 R 是有原因的, 當然是 R 在統計方面的資源真的很多, 尤其是一些新的觀念的函式庫會讓開發時間與資源成本少很多, 但這個只適用對語言都不太熟的, 若是你最熟悉那個語言, 在大部份的經驗就是那個語言是最好的.
R 最強的地方有幾項:
就如 R Project 所說的:
而語言的學就是去用, 就建議大家找個題目去實作, 這樣就學會了.
電子書:
開放課程:
關鍵字:
我覺得 R 只是拿來選模型用的,資料量一大, R 就爆炸了。 雖然 R 有些 parallelization 的技巧,用起來還是不如有內建平行處理的框架來的方便啊。